Запустите генерацию контента и выводы Gemma

Когда вы хотите запустить модель Gemma, вам нужно принять два ключевых решения: 1) какой вариант Gemma вы хотите запустить и 2) какую среду выполнения ИИ вы собираетесь использовать для ее запуска? Ключевой вопрос при принятии обоих этих решений связан с тем, какое оборудование имеется у вас и ваших пользователей для запуска модели.

Этот обзор поможет вам сориентироваться в этих решениях и начать работать с моделями Gemma. Общие шаги для запуска модели Gemma следующие:

Выберите фреймворк

Модели Gemma совместимы с различными средами выполнения генеративного искусственного интеллекта. Одним из ключевых факторов принятия решений при запуске модели Gemma является то, какие вычислительные ресурсы у вас есть (или будут) доступны для запуска модели. Большинству совместимых платформ искусственного интеллекта требуется специальное оборудование, такое как графические процессоры или TPU, для эффективного запуска модели Gemma. Такие инструменты, как Google Colab, могут предоставить эти специализированные вычислительные ресурсы на ограниченной основе. Некоторые платформы выполнения искусственного интеллекта, такие как Ollama и Gemma.cpp , позволяют запускать Gemma на более распространенных процессорах с использованием архитектуры x86 или ARM.

Вот руководства по запуску моделей Gemma с различными средами выполнения ИИ:

Убедитесь, что предполагаемый формат модели Gemma развертывания, например собственный формат Keras, Safetensors или GGUF, поддерживается выбранной вами платформой.

Выберите вариант Джеммы

Модели Gemma доступны в нескольких вариантах и ​​размерах, включая базовую или базовую модели Gemma, а также более специализированные варианты моделей, такие как PaliGemma и DataGemma , а также множество вариантов, созданных сообществом разработчиков ИИ на таких сайтах, как Kaggle и Hugging Face . Если вы не уверены, с какого варианта вам следует начать, выберите последнюю модель ядра Gemma с настройкой инструкций (IT) с наименьшим количеством параметров. Модель Gemma этого типа имеет низкие требования к вычислительным ресурсам и способна реагировать на широкий спектр запросов, не требуя дополнительной разработки.

При выборе варианта Gemma учитывайте следующие факторы:

  • Gemma core и другие семейства вариантов, такие как PaliGemma, CodeGemma : рекомендуйте Gemma (core). Варианты Gemma, выходящие за рамки базовой версии, имеют ту же архитектуру, что и базовая модель, и обучены лучше выполнять определенные задачи. Если ваше приложение или цели не соответствуют специализации конкретного варианта Gemma, лучше всего начать с базовой или базовой модели Gemma.
  • С настройкой инструкций (IT), с предварительной подготовкой (PT), с точной настройкой (FT), смешанный (смешанный) : рекомендуется ИТ.
    • Варианты Gemma , настроенные на инструкции (IT), представляют собой модели, обученные реагировать на различные инструкции или запросы на человеческом языке. Эти варианты модели — лучшее место для начала, поскольку они могут реагировать на подсказки без дальнейшего обучения модели.
    • Предварительно обученные (PT) варианты Gemma — это модели, которые были обучены делать выводы о языке или других данных, но не обучены следовать человеческим инструкциям. Эти модели требуют дополнительного обучения или настройки для эффективного выполнения задач и предназначены для исследователей и разработчиков, которые хотят изучить или развить возможности модели и ее архитектуры.
    • Варианты Gemma с точной настройкой (FT) можно считать ИТ-вариантами, но обычно их обучают выполнять конкретную задачу или хорошо работать в конкретном тесте генеративного ИИ. Семейство вариантов PaliGemma включает несколько вариантов FT.
    • Смешанные (смешанные) варианты Gemma — это версии моделей PaliGemma, которые настроены с использованием различных инструкций и подходят для общего использования.
  • Параметры : Рекомендуется наименьшее доступное число . В целом, чем больше параметров имеет модель, тем она более функциональна. Однако запуск более крупных моделей требует более крупных и сложных вычислительных ресурсов и, как правило, замедляет разработку приложения ИИ. Если вы еще не определились, что меньшая модель Gemma не может удовлетворить ваши потребности, выберите модель с небольшим количеством параметров.
  • Уровни квантования: рекомендуется половинная точность (16 бит), за исключением настройки . Квантование — это сложная тема, которая сводится к тому, какой размер и точность данных и, следовательно, сколько памяти использует генеративная модель ИИ для вычислений и генерации ответов. После обучения модели с использованием данных высокой точности, которые обычно представляют собой 32-битные данные с плавающей запятой, такие модели, как Gemma, можно изменить для использования данных с более низкой точностью, например, размером 16, 8 или 4 бита. Эти квантованные модели Gemma по-прежнему могут работать хорошо, в зависимости от сложности задач, используя при этом значительно меньше вычислительных ресурсов и ресурсов памяти. Однако инструменты для настройки квантованных моделей ограничены и могут быть недоступны в выбранной вами среде разработки ИИ. Обычно вам необходимо с полной точностью настроить такую ​​модель, как Gemma, а затем квантовать полученную модель.

Список ключевых моделей Gemma, опубликованных Google, см . в разделе «Начало работы с моделями Gemma» , список моделей Gemma.

Запуск запросов генерации и вывода

После того, как вы выбрали платформу выполнения ИИ и вариант Gemma, вы можете начать запускать модель и предлагать ей генерировать контент или выполнять задачи. Дополнительную информацию о том, как запустить Gemma с определенной платформой, см. в руководствах, ссылки на которые приведены в разделе «Выбор платформы» .

Подскажите форматирование

Все варианты Gemma, настроенные с помощью инструкций, предъявляют особые требования к форматированию подсказок. Некоторые из этих требований к форматированию автоматически обрабатываются платформой, которую вы используете для запуска моделей Gemma, но когда вы отправляете данные приглашения непосредственно в токенизатор, вы должны добавить определенные теги, а требования к тегам могут меняться в зависимости от используемого вами варианта Gemma. См. следующие руководства для получения информации о форматировании подсказок варианта Gemma и системных инструкциях: